无知之幕下的人工智能正义论

Original 黄怡清华大学智能法治研究院

2024-08-28

《美国科学院院报》(PNAS)在2023年刊发了一篇来自DeepMind和牛津大学合作完成的文章“运用‘无知之幕’使人工智能系统符合正义原则”Using the Veil of Ignorance to align AI systems with principles of justice”，测试无知之幕（VOI）在人工智能领域发挥的作用，并探究其背后的影响因素。

研究背景

随着人工智能日渐融入日常生活，人们愈发关注管理人工智能系统应该使用的原则，尤其是希望突出人类道德与价值观在人工智能系统中的作用。针对这一问题，现有的两类解决方案——道德上的直觉主义和理论主导的方法——都存在一定的局限性。由于多元社会中不同个体的价值观和利益需求存在很大差异，所以，需要以一种公平的方式来指导人工智能的管理。在此背景之下，该文研究者提出了以VOI（无知之幕）来确定人工智能系统的公正原则的方案，并通过五个实验分析了VOI在人工智能决策中所起到的作用，证明了该方案的可行性。

无知之幕是约翰·罗尔斯在《正义论》中提出的一个重要理论。即在每个人都不了解自己将在社会中处于何种地位的情况下，仅凭社会的一般理论知识即理性认知作出社会决策。由于不存在事先的既得利益，无知之幕可以排除参与者的偏见和自利性，使其做出更公平的决定。罗尔斯认为，无知之幕下的决策一般能保证最弱势者优先得到最好的保护，即“优先原则”。此外，罗尔斯认为，当无知之幕被揭开后，参与者也会继续支持之前在无知之幕状态下所做的结论，即“反思性认可”。

研究内容

先前的研究显示，VOI倾向于促进更大程度地考虑最差群体。部分研究表明VOI主要是一个关于风险的概念，另一些研究则认为亲社会偏好是参与者行为的关键驱动因素。在这些发现的基础上，该文研究者试图直接测试VOI在人工智能领域发挥的作用，并探究其背后的影响因素。研究者调查了在VOI背后推理的个人是否更经常选择优先考虑最差的情况，以及他们是否更有可能在面纱揭开后反思性地坚持之前的选择，称为“反思性认可”。此外，研究者希望考察亲社会偏好和对原则的语言表征在VOI中的影响。最后，研究者通过引导参与者对他们做出选择的原因进行解释，并测试参与者对风险和政治偏好的态度，来调查影响VOI背后推理的因素。

根据实验心理学领域的最新发现，研究者假设VOI不仅仅是一种关于政治偏好和风险态度的机制，VOI背后对公平的自发考虑，在影响原则选择方面发挥着相对更大的作用。研究者在描述性任务和沉浸式实时收割游戏中测试了这些效果。如果VOI导致了更多的基于公平的推理，并在应用于人工智能时引发了经过反思性认可的偏好，那么这些偏好就有可能成为创建人工智能系统的合适焦点。

具体而言，研究者设计了五个实验，共招募两千多名参与者。在每个实验中，参与者被随机分配到VOI状态和对照状态。所有参与者都被告知，他们的任务目标是从各自的领地里尽可能地收割更多树木，而收割任务涉及四名小组成员和一名人工智能助理。实际上，除参与者之外的其他三位小组成员都是人工智能，但除了第四个实验之外，其余四个实验的参与者都被告知小组成员均为人类。任务开始之前，参与者将被随机分配到一块田地中，而不同田地的树木密度不同，因此具有不同水平的收割生产力优势。

在第一个实验中，参与者被告知，系统在人类小组中随机选中了他们来决定人工智能助理的行为原则，并且这种决策不会被其他人类小组成员发现。参与者被要求在两种原则中选择一个：一项原则是最大化原则，对应于最大限度地提高群体的总体收获，被描述为“尽可能多地收集树木”；另一项原则是优先原则，对应于最大限度地提高群体的最低收获，即帮助最弱势的小组成员，被描述为 “为回合开始时处境最不利的成员收集树木”。

为了保证实验数据的准确性，参与者被要求完成对两个原则的理解测试，未通过测试的参与者将被排除在分析之外。完成理解测试后，处于对照状态的参与者先被告知他们在收割任务中的位置，然后才选择人工智能助手应遵循的原则。而VOI状态下的参与者只能先选择原则，然后才被告知他们所处的位置。任务完成后，研究者发放了问卷调查影响VOI决策背后的因素，包括参与者对风险的态度、政治偏好，以及参与者在解释其选择时主动提及“公平、平等”等关键词的频率。

为了进一步测试VOI对“反思性认可”的影响，在新一轮测试中，部分参与者面临改变选择的动机：一种情况是，参与者在第一轮测试中选择了优先原则，并被分配到树木密度较低的土地，但在新一轮测试中却被分配到了树木密度较高的土地，因此具有转向最大化原则的动机；另一种情况是，参与者在第一轮测试中选择了最大化原则，且被分配到树木密度较高的土地，但在新一轮测试中被分配到低密度土地，因此具有转向优先原则的动机。对于这些参与者来说，支持原来的选择意味着牺牲更高额的奖励。而对于其他参与者来说，支持原来的选择和提高奖励并不冲突。

第二个实验大致复制了第一个实验的模式，但增加了样本基数，并且有更多的参与者在新一轮测试中面临改变选择的动机，以评估相异动机下的“反思性认可”是否不同。

第三个实验遵循了前两个实验的基本模式，但最大的变化在于采用了沉浸式收割游戏的方式。除了第三个实验之外，其余四个实验都是在描述性收割任务的模式下进行的。在沉浸式收割游戏中，参与者使用键盘控制化身（蓝色人物），在2D网格世界中的一块田地里四处移动并收割树木。参与者被告知，他们将与被分配到其他田地的人类小组成员（红色人物）比赛，小组成员无法跨越边界。游戏中还有一位人工智能助手（米色人物），它可以跨越边界并收集多个田地的树木。与先前的研究一样，田地的树木密度各不相同，在稀疏的田地里收割效率较低。完成理解测试后，与先前的实验一样，参与者被要求为人工智能助手选择一个原则。

此外，为了避免其他因素的干扰，本次实验中的“反思性认可”引入了额外的标准：最终收获偏离了预期分布——处于优势田地却收获较少或者处于劣势田地却收获较多——的参与者，将被排除在“反思性认可”的分析之外。

第四个实验遵循了第一个实验的基本方案，但参与者被如实告知其他三位小组成员其实是机器人，以研究亲社会性在VOI决策中的作用。

第五个实验遵循了第一个实验的基本方案，但研究者以抽象标签（“原则A与原则B”）取代了两个原则的口头描述，以测试语言表征的重要性。

研究结果

在第一个和第二个实验中，VOI显著增加了参与者选择优先原则而非最大化原则的可能性。在第三个和第四个实验中，VOI背后的参与者也比对照状态下的参与者更有可能选择优先原则。而第五个实验的数据表明VOI并没有对参与者的决策产生显著影响，反映了VOI发生作用的边界。

在第一个、第二个和第三个实验中，VOI状态下具有改变选择动机的参与者更有可能认可之前的选择。而在第四个和第五个实验中，VOI状态与对照状态的参与者在“反思性认可”上没有差异。此外，在第二个实验中，面临转向最大化原则动机的参与者中，VOI组66%的参与者和对照组30%的参与者重复了他们对优先原则的选择；而一开始选择了最大化原则的参与者中，只有29%的VOI组和33%的对照组重复了他们的选择。总体来说，VOI参与者在面临改变动机时重复他们的选择的趋势在最初选择优先原则的参与者中非常明显。也就是说，VOI背后的参与者更有可能反思性地支持一开始选择的优先原则而非最大化原则。

在第一个研究中，对风险的态度、自由保守的政治取向、左右两派政治取向等因素都在VOI背后的原则选择中占比较小，而对公平的考虑在VOI背后的原则选择中发挥的作用更大。这种现象在后面的研究中也得到了体现。即使在明知其他小组成员是人工智能的第四个研究中，对公平的考虑也远远超过了风险偏好等因素。参与者对其原则选择的解释表明了VOI与他们对公平的关心之间的联系，除了第四个研究之外，其他研究中VOI状态下的参与者都比对照状态下的参与者更大程度地考虑到公平的因素。而在第四个研究中，VOI状态与对照状态下对公平的考虑没有太大差异，说明对公平的追求带有一定亲社会性。

在第一个、第二个和第三个研究中，VOI状态下的参与者在面临改变选择的自利动机时有更大可能性维持其选择，同时，基于公平的推理增加了VOI参与者面临改变选择的自利动机时维持其选择的可能性，说明在VOI背后的考虑因素中援引了公平概念的参与者往往倾向于对自己选择的原则进行反思性认可。

结论

首先，VOI状态下的参与者更倾向于选择优先原则，即最先考虑最坏情况。其次，VOI状态下的参与者更经常在反思时支持他们原先的选择。最后，在解释其选择时，VOI状态下的参与者往往会主动提及公平的概念，可见VOI是一种引发基于公平的反思和决策的机制。

在适用VOI原则时要注意对其进行充分表述，因为语言影响人类思考和理解道德原则的方式，道德认知必然是由词汇、话语等形式介导的。如果不对原则进行一般性语言描述，而只进行抽象表达，则人们不太能进行有效的道德推理，从而影响对公平的考量。

VOI可以有意义地应用于人工智能治理原则的选择，因为该机制展示了人类希望在现实世界运行中看到的品质，即基于公平的推理而非自利的偏好。此外，政治派别在研究中并未产生特别影响，说明即使在政治信仰不同的人之间，VOI也可能发挥促进合意达成的作用。

为了进一步发掘VOI的潜力，未来的研究可能需要探索该机制如何在更广泛的现实人工智能应用和环境中发挥作用。此外，为了进一步了解VOI背后引发的偏好的性质，向参与者提供一套更大的原则供他们选择也是有益的，如“为每个人提供平等的福利”和“花平等的时间帮助每个人”。以及，考虑到人工智能的预期全球影响，未来的研究应该考察管理人工智能的偏好之间的跨文化差异，不同地区不同文化的人群可能在VOI背后支持不同的原则。

总而言之，当今社会面临的一个关键挑战是确定人工智能系统的价值观和原则。这既是道德挑战，也是政治挑战，需要寻求一种公平、稳健和可扩展的调整机制。该文的结论虽然并不能最终解决这一问题，但是，该文证明了VOI是人工智能调整原则的一个可行选择，其特殊好处是它采用了基于公平的推理，促使参与者反思并在面对自利的改变动机时认可先前的选择。此外，VOI已经被作为其他现实领域（如税收政策）规范性问题的解决方案提出，并取得了一定成功。因此，VOI可以在使人工智能系统符合人类价值观的机制选择中被考虑。

撰稿 | 黄怡，清华大学法学院本科生

选题&指导 | 刘云

编辑 | 王欣辰

注：本文为清华大学大学生研究训练计划（SRT）项目“人工智能立法中的重难点问题研究”（项目编号：2411T0813）阶段性成果之一。

继续滑动看下一个

清华大学智能法治研究院

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

无知之幕下的人工智能正义论

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

无知之幕下的人工智能正义论

您可能也对以下帖子感兴趣